我们将后处理应用于音频事件分类模型的类概率分布输出,并采用强化学习来共同发现后处理堆栈的各个阶段的最佳参数,例如分类阈值和所使用的中间过滤算法的内核大小平滑模型预测。为了实现这一目标,我们定义了一个强化学习环境:1)状态是该模型为给定音频样本提供的类概率分布,2)操作是选择后处理的每个参数的候选最佳值堆栈,3)奖励基于我们旨在优化的分类准确度度量,即在我们的情况下,这是基于音频事件的宏F1得分。我们将我们的后处理应用于两个音频事件分类模型的类概率分布输出,这些模型已提交给Dcase Task4 2020挑战。我们发现,通过使用强化学习来发现应用于音频事件分类模型输出的后处理堆栈的最佳每级参数,我们可以改进基于音频事件的宏F1分数(使用的主要指标在DCASE挑战中,将音频事件分类精度比较4-5%,与使用手动调谐参数相同的后处理堆栈相比。
translated by 谷歌翻译
在这项工作中,我们将深度加强施加到导航三维环境的问题,并在唯一可用信息是来自环境的原始声音的情况下推断出人类扬声器音频源的位置,作为模拟的人类侦听器放在环境中会听到它。为此目的,我们使用Unity游戏引擎创建两个虚拟环境,其中一个呈现基于音频的导航问题,一个呈现音频源定位问题。我们还根据PPO在线强化学习算法创建一个自主代理,并试图培训它来解决这些环境。我们的实验表明,即使在有限数量的训练数据或在训练期间没有遇到的方式,也可以通过定量度量来实现这两种环境中的足够性能和泛化能力。我们还表明,在环境之间可以实现一定程度的代理知识转移。
translated by 谷歌翻译
Quantifying motion in 3D is important for studying the behavior of humans and other animals, but manual pose annotations are expensive and time-consuming to obtain. Self-supervised keypoint discovery is a promising strategy for estimating 3D poses without annotations. However, current keypoint discovery approaches commonly process single 2D views and do not operate in the 3D space. We propose a new method to perform self-supervised keypoint discovery in 3D from multi-view videos of behaving agents, without any keypoint or bounding box supervision in 2D or 3D. Our method uses an encoder-decoder architecture with a 3D volumetric heatmap, trained to reconstruct spatiotemporal differences across multiple views, in addition to joint length constraints on a learned 3D skeleton of the subject. In this way, we discover keypoints without requiring manual supervision in videos of humans and rats, demonstrating the potential of 3D keypoint discovery for studying behavior.
translated by 谷歌翻译
Tactile sensing is essential for a variety of daily tasks. And recent advances in event-driven tactile sensors and Spiking Neural Networks (SNNs) spur the research in related fields. However, SNN-enabled event-driven tactile learning is still in its infancy due to the limited representation abilities of existing spiking neurons and high spatio-temporal complexity in the event-driven tactile data. In this paper, to improve the representation capability of existing spiking neurons, we propose a novel neuron model called "location spiking neuron", which enables us to extract features of event-based data in a novel way. Specifically, based on the classical Time Spike Response Model (TSRM), we develop the Location Spike Response Model (LSRM). In addition, based on the most commonly-used Time Leaky Integrate-and-Fire (TLIF) model, we develop the Location Leaky Integrate-and-Fire (LLIF) model. Moreover, to demonstrate the representation effectiveness of our proposed neurons and capture the complex spatio-temporal dependencies in the event-driven tactile data, we exploit the location spiking neurons to propose two hybrid models for event-driven tactile learning. Specifically, the first hybrid model combines a fully-connected SNN with TSRM neurons and a fully-connected SNN with LSRM neurons. And the second hybrid model fuses the spatial spiking graph neural network with TLIF neurons and the temporal spiking graph neural network with LLIF neurons. Extensive experiments demonstrate the significant improvements of our models over the state-of-the-art methods on event-driven tactile learning. Moreover, compared to the counterpart artificial neural networks (ANNs), our SNN models are 10x to 100x energy-efficient, which shows the superior energy efficiency of our models and may bring new opportunities to the spike-based learning community and neuromorphic engineering.
translated by 谷歌翻译
PtyChography是一种经过良好研究的相成像方法,可在纳米尺度上进行非侵入性成像。它已发展为主流技术,在材料科学或国防工业等各个领域具有各种应用。 PtyChography的一个主要缺点是由于相邻照明区域之间的高重叠要求以实现合理的重建,因此数据采集时间很长。扫描区域之间重叠的传统方法导致与文物的重建。在本文中,我们提出了从深层生成网络采样的数据中稀疏获得或不足采样的数据,以满足Ptychography的过采样要求。由于深度生成网络是预先训练的,并且可以在收集数据时计算其输出,因此可以减少实验数据和获取数据的时间。我们通过提出重建质量与先前提出的和传统方法相比,通过提出重建质量来验证该方法,并评论提出的方法的优势和缺点。
translated by 谷歌翻译
X射线荧光光谱(XRF)在广泛的科学领域,尤其是在文化遗产中,在元素分析中起重要作用。使用栅格扫描来获取跨艺术品的光谱的XRF成像为基于其元素组成的颜料分布的空间分析提供了机会。然而,常规的基于XRF的色素识别依赖于耗时的元素映射,该元素映射通过测量光谱的专家解释。为了减少对手动工作的依赖,最近的研究应用了机器学习技术,以在数据分析中聚集相似的XRF光谱并确定最可能的颜料。然而,对于自动色素识别策略,直接处理真实绘画的复杂结构,例如色素混合物和分层色素。此外,与平均光谱相比,基于XRF成像的像素颜料识别仍然是障碍物。因此,我们开发了一个基于深度学习的端到端色素识别框架,以完全自动化色素识别过程。特别是,它对浓度较低的颜料具有很高的敏感性,因此可以使令人满意的结果基于单像素XRF光谱映射颜料。作为案例研究,我们将框架应用于实验室准备的模型绘画和两幅19世纪的绘画:Paul Gauguin的Po \'Emes Barbares(1896),其中包含带有底层绘画的分层颜料,以及Paul Cezanne的沐浴者(1899--1899-- 1904)。色素鉴定结果表明,我们的模型通过元素映射获得了与分析的可比结果,这表明我们的模型的概括性和稳定性。
translated by 谷歌翻译
人工智能缺乏解释性,特别是深神经网络,仍然是在实践中实施模型的瓶颈。诸如梯度加权类激活映射(Grad-Cam)的流行技术提供了图像中的突出特征的粗糙图,这很少讲述卷积神经网络(CNN)学习的全部故事。使用Covid-19胸部X射线,我们提出了一种解释通过利用生成的对抗性网络(GAN)来学习的CNN的方法。我们的GaN Framework Disentangantangly Covid-19功能的肺部结构。使用该GaN,我们可以通过在GaN的潜在空间内插入液体中的胸部射线照片中的一对Covid负肺的过渡到Covid正对对,这提供了细粒度的可视化,这些内部CNN如何响应不同的特征肺。
translated by 谷歌翻译